RL Weekly News

导言

RL 相关的洞察: 算法趋势、热点模型策略、框架优化、实验规律、流派观点

251231

  • [模型策略] Kling-Omni 快手:RL 只使用 DPO,嫌弃GRPO慢
  • [模型策略] NextStep1.1 阶跃星辰: 没有技术报告,但是github readme提到使用了Flow-based RL
  • [模型策略] QwenLong-L1.5 通义文档智能团队:基于 Qwen3-30B-A3B 打造,通过三大技术创新(“数据合成 + RL 优化 + 记忆管理” )解决长文本推理的核心难题;RL部分使用1. 任务均衡采样:强制混合多领域任务数据,避免批次内分布偏移。 2. 自适应熵控制(AEPO):动态屏蔽高熵状态下的错误惩罚,保护探索行为,解决长文本信用分配难题。AEPO实现了超过GRPO更好的效果。
  • [实验规律]: Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning 论文揭示了许多 基于 Qwen2.5 全系列模型(0.5B 至 72B)的系统性实验,研究团队得出了以下核心结论:1. 学习效率与模型规模正相关:大模型在计算(Compute)和数据(Data)指标上均表现出更高的学习效率。2. 幂律关系显著:测试损失(Test Loss)、计算量与数据量之间遵循可预测的幂律关系,该规律在 Base 模型和 Instruct 模型中均成立。3. 效率饱和效应:虽然大模型效率更高,但学习效率系数 随模型增大呈现饱和趋势,不会无限增长。4. 数据复用的有效性:在数据受限场景下,对高质量数据的重复使用(Data Reuse)是有效的。最终性能主要取决于优化总步数,而非样本的唯一性。
  • [流派观点]: RL越强,AGI越远: 知名科技博主Dwarkesh Patel犀利在视频中指出,各大实验室通过RL(强化学习),耗资数十亿美元让大模型“排练”Excel、网页操作等技能,恰恰暴露其距真正AGI仍远。若AI真接近类人智能,就该像人类一样从经验中自主学习,而非依赖“可验证奖励训练”。而真正突破在于“持续学习”能力,这一过程或需5-10年才能完善。

参考文献

Author

Shaojie Tan

Posted on

2025-12-31

Updated on

2025-12-31

Licensed under